“拨云散雾"---蛋白基因组学研究玉米发育过程中的基因调控网络
景杰编者按:
在系统生物学的水平来预测单个基因的功能,对现阶段的科研人员言仍是一项艰巨的挑战: 目前的策略多是分析转录组数据,进而预测基因调控网络和共表达网络,而该策略基于基因表达的mRNA丰度能反映相应蛋白的丰度的假设。然而现实是,mRNA和蛋白丰度的相关性其实并不高,因此如果只是依靠转录组数据而不依靠蛋白质或者蛋白修饰组学的数据,最终来进行功能预测所得到结果,其可靠性是存疑的。
美国加州大学圣地亚哥分校Steven P. Briggs院士团队在Science上报道整合多维组学的数据(转录组-蛋白组-蛋白磷酸化),预测玉米在发育过程中的基因调控网络。
结果表明:基于转录组、蛋白组数据进行相互作用分析,上述两种方法间的差异约为85%,虽然这两类组学数据能够分别富集到相似的ontological categories。整合mRNA, protein, phosphoprotein数据库后的分析,可以很大程度提高从系统层面预测单个基因功能的能力[1]。
此前,景杰生物的科学顾问Steven A. Carr教授及其团队在Cell上发表“Integrated proteogenomic characterization of human high-grade serous ovarian cancer”的文章,
研究人员结合蛋白组和蛋白磷酸化组数据,发现了更多更精准地诊断乳腺癌4种亚型(Basal-like型、HER-2(+)型、luminal A型、和luminal B型)的分子标志物[2]。景杰生物作为全球蛋白质及蛋白质修饰的领跑者,可以为您提供一套系统的蛋白质组学、多种蛋白质修饰组学以及整合组学的研究方案,助力您的科研工作。
研究背景:
共表达网络(coexpression networks)[3]和基因调控网络(GRNs: gene regulatory networks)[4]是从系统层面进行单个基因功能预测的重要工具。转录组最早用于共表达网络分析和GRNs分析,而基于的理论基础是mRNA可以预测蛋白质丰度的假设。然而,最近组学联合分析的研究表明mRNA和protein之间表现为弱的正相关性[5,6]。那么蛋白质组和转录组数据结果是否预测了相同的基因功能和相互作用关系?为了回答这个问题,文章中对玉米(营养到生殖阶段中)的23个组织(3次生物学重复)进行了转录组测序,33个组织(3-7次生物学重复)进行了质谱测序。经过整合组学数据的分析,从共表达网络和GRNs两个方面进行了探证。
研究结果:
在玉米发育过程中,总共鉴定到62,547个mRNA,17,862个蛋白,以及6,227个磷酸化蛋白对应31,595个磷酸化位点(生物学重复的皮尔森相关系数分别为0.9,0.84和0.7)。RNA-seq 数据结果表现为基因表达丰度(FPKM)分布呈双峰特征,这与人和小鼠的数据一致。鉴定到的蛋白质,磷酸化蛋白质和报道的近缘物种高粱的共染色体基因,均集中分布在转录组高表达峰处(Fig 1A)。相对于鉴定到的mRNA在注释的数据库中的比例,鉴定到的蛋白质在注释数据库中所占的比例很小仅5%(Fig 1B),蛋白质数据结果中假基因和转座子所占比例也相对较小,分别为1.3%和1.7%。(Fig 1C)。
图1. 转录组数据和蛋白质组数据的特征和比较分析
对10,979个mRNA数据和protein数据共检测的基因进行相互作用(Spearman correlations by WGCNA )分析结果表明基于mRNA数据和protein数据的高相互作用(TOP 10000)预测一致的比例为6.1%(Fig 2B)。其理论模型中,虚线表示单个数据库预测的相互作用,实线表示共预测的相互作用(Fig 2A)。而共预测的相互作用的节点基因所占比例仅为15%(Fig 2C)。
图2. 共表达网络分析
将超过20个基因富集的功能类型结果进行可视化显示,基于蛋白质数据和转录组数据表现出显著差异的富集模式(35% protein数据特异, 27% mRNA数据特异, 38%为共富集部分) (Fig 3),结果表示两种数据库的预测结果偏向于不同的功能和富集模式。
图3. 共表达模块GO富集
为了进一步探究玉米发育过程中转录调控关系预测的比较分析,文章采用GENIE3对鉴定到的mRNAs (2200 TFs), proteins (545 TFs), 和 phosphopeptides (441 TFs)转录因子以及41,021共同调控基因构建了“regulators”-“target genes”的调控关系网络:理论模型(Fig 4A),三种数据库预测的调控关系韦恩图(Fig 4C)。文章中利用研究报道转录因子KN1和 Opaque2 (O2) 调控关系,用三种数据库进行预测(Fig 4B),以及可靠性检测的ROC 曲线和 precision-recall 曲线(Fig 4D)分析,结果表明联合组学分析可以提高预测的准确性。
图4. GRNs分析
总结:文章通过玉米发育图谱中转录组-蛋白组-蛋白磷酸化修饰组学整合分析,揭示了各组学对基因功能,相互作用或者调控关系的预测结果是互补的。
参考文献:
1. Justin Walley, et al. Integration of omic networks in a developmental atlas of maize. Science, 2016, 353(6301):814.
2. Hui Zhang, et al. Integrated proteogenomic characterization of human high-grade serous ovarian cancer.. Cell, 2016, 166(3):755.
3. Diet Smet, Kathleen Marchal. Advantages and limitations of current network inference methods. Nature Reviews Microbiology, 2010, 8(10):717-29.
4. Joshua Stuart, et al. A gene-coexpression network for global discovery of conserved genetic modules. Science, 2003, 302(5643):249.
5. Bjorn Schwanhäusser et al. Global quantification of mammalian gene expression control. Nature, 2013, 495(7439):126-7.
6. Bing Zhang, et al. Proteogenomic characterization of human colon and rectal cancer. Nature, 2014, 513(7518):382.
景杰生物通过整合以组学为导向(包括基因蛋白质组学和组蛋白密码组学)的生物标志物发现、以生物标志物为导向的药物研发、以高质量抗体为基础的诊断试剂盒开发这三个环节,逐步构建起“疾病精准分层”、“精准药物研发”、“疾病精准诊断” 三位一体的精准医疗产业化发展的运作链条,从而为精准医疗产业化开创出一片广阔前景, 并开辟出一条可行路径。